Modelo de bloque estocástico

De Wikipedia, la enciclopedia libre

El modelo de bloques estocásticos es un modelo generativo para grafos aleatorios. Este modelo tiende a producir grafos que contienen comunidades, subconjuntos de nodos caracterizados por estar conectados entre sí con densidades de arista particulares. Por ejemplo, los bordes pueden ser más comunes dentro de las comunidades que entre comunidades distintaas. Su formulación matemática fue introducida por primera vez en 1983 en el campo de las redes sociales por Holland et al. El modelo de bloque estocástico es importante en estadística, aprendizaje automático y ciencia de redes, donde sirve como un punto de referencia útil para la tarea de recuperar la estructura de la comunidad en datos de grafos.

Definición[editar]

El modelo de bloque estocástico toma los siguientes parámetros:

  • El número de vértices;
  • una partición del conjunto de vértices en subconjuntos disjuntos , llamados comunidades ;
  • una matriz de dimensiones simétrica con probabilidades de arista.

Luego, el conjunto de aristas se muestrea al azar de la siguiente manera: dos vértices cualesquiera y están conectados por una arista con probabilidad . Un problema de ejemplo es: dado un grafo con vértices, donde los bordes se muestrean como se describe, recuperar los grupos .

Casos especiales[editar]

Si la matriz de probabilidad es constante, en el sentido de que para todas las parejas , entonces el resultado es el modelo Erdős-Rényi . Este caso es degenerado, la partición en comunidades se vuelve irrelevante, pero ilustra una estrecha relación con el modelo Erdős-Rényi.

El modelo de partición plantada es el caso especial de que los valores de la matriz de probabilidad son una constante en la diagonal y otra constante fuera de la diagonal. Así dos vértices dentro de la misma comunidad comparten una arista con probabilidad , mientras que dos vértices en diferentes comunidades comparten una arista con probabilidad . A veces, este modelo restringido se denomina modelo de bloques estocásticos. El caso donde se llama un modelo surtido, mientras que el caso se llama modelo no surtido.

Volviendo al modelo general de bloques estocásticos, un modelo se llama fuertemente surtido si siempre que  : todas las entradas diagonales dominan todas las entradas fuera de la diagonal. Un modelo se llama débilmente surtido si siempre que  : solo se requiere que cada entrada diagonal domine el resto de su propia fila y columna.[1]​ Existen formas desordenadas de esta terminología, al invertir todas las desigualdades. Para algunos algoritmos, la recuperación puede ser más fácil para los modelos de bloques con condiciones surtidas o no surtidas de esta forma.[2]

Tareas estadísticas típicas[editar]

Gran parte de la literatura sobre detección algorítmica de comunidades aborda tres tareas estadísticas: detección, recuperación parcial y recuperación exacta.

Detección[editar]

El objetivo de los algoritmos de detección es simplemente determinar, dado un grafo de muestra, si el grafo tiene una estructura de comunidad latente. Más precisamente, se podría generar un grafo, con alguna probabilidad previa conocida, a partir de un modelo de bloque estocástico conocido y, de lo contrario, a partir de un modelo Erdos-Renyi similar. La tarea algorítmica es identificar correctamente cuál de estos dos modelos subyacentes generaron el grafo.[3]

Recuperación parcial[editar]

En la recuperación parcial, el objetivo es determinar aproximadamente la partición latente en las comunidades, en el sentido de encontrar una partición que se correlacione con la partición real significativamente mejor que una suposición aleatoria.[4]

Recuperación exacta[editar]

En recuperación exacta, el objetivo es recuperar exactamente la partición latente en comunidades del grafo. El tamaño de la comunidad y la matriz de probabilidad pueden ser conocidos[5]​ o desconocidos.[6]

Límites inferiores estadísticos y comportamiento de umbral[editar]

Los modelos de bloques estocásticos exhiben un efecto de umbral agudo que recuerda a los umbrales de percolación.[3]​ Supongamos que permitimos que el tamaño del grafo crezca, manteniendo los tamaños de las comunidades en proporciones fijas. Si la matriz de probabilidad permanece fija, tareas como la recuperación parcial y exacta se vuelven realizables para todos los ajustes de parámetros no degenerados. Sin embargo, si reducimos la matriz de probabilidad a una tasa adecuada a medida que aumenta, observamos una transición de fase brusca: para ciertos ajustes de los parámetros, será posible lograr la recuperación con una probabilidad que tiende a 1, mientras que en el lado opuesto del umbral del parámetro, la probabilidad de recuperación tiende a 0 sin importar qué algoritmo se use.

Para la recuperación parcial, la escala apropiada consiste en que tomemos para fijo, resultando en grafos de grado promedio constante. En el caso de dos comunidades de igual tamaño, en el modelo de partición plantada sorteada con matriz de probabilidad

la recuperación parcial es realizable con probabilidad siempre y cuando , mientras que cualquier estimador falla realizando una recuperación parcial con probabilidad siempre y cuando .

Para una recuperación exacta, la escala apropiada es tomar , dando como resultado grafos de grado medio logarítmico. Aquí existe un umbral similar: para el modelo de partición plantada surtido con comunidades de igual tamaño, el umbral se encuentra tan cerca como . De hecho, el umbral de recuperación exacta se conoce para el modelo de bloque estocástico totalmente general.

Algoritmos[editar]

En principio, la recuperación exacta se puede resolver en su rango factible utilizando la máxima verosimilitud, pero esto equivale a resolver un problema de corte restringido o regularizado, como una bisección mínima que normalmente es NP-completa . Por lo tanto, ningún algoritmo eficiente conocido calculará correctamente la estimación de máxima verosimilitud en el peor de los casos.

Sin embargo, una amplia variedad de algoritmos funcionan bien en el caso promedio, y se han probado muchas garantías de rendimiento de alta probabilidad para algoritmos de recuperación tanto parcial como exacta. Los algoritmos exitosos incluyen el agrupamiento espectral de los vértices, programación semidefinida, formas de propagación de creencias, y detección comunitaria entre otros.

Variantes[editar]

Existen varias variantes del modelo. Un ajuste menor asigna los vértices a las comunidades al azar, de acuerdo con una distribución categórica, en lugar de una partición fija. Las variantes más significativas incluyen el modelo de bloques estocásticos de grado corregido, el modelo de bloques estocásticos jerárquicos, el modelo de bloques geométricos, el modelo de bloques censurados y el modelo de bloques de membresía mixta.

Modelos de tema[editar]

Se ha reconocido que el modelo de bloque estocástico es un modelo temático en redes bipartitas.[2]​ En una red de documentos y palabras, el modelo de bloque estocástico puede identificar temas: grupo de palabras con un significado similar.

Extensiones a grafos con signo[editar]

Los grafos con signo permiten relaciones tanto favorables como adversas y sirven como una opción de modelo común para varias aplicaciones de análisis de datos, por ejemplo, agrupación de correlación. El modelo de bloques estocásticos puede extenderse de manera trivial a grafos con signo asignando pesos de arista positivos y negativos, o de manera equivalente, utilizando una diferencia de matrices de adyacencia de dos modelos de bloques estocásticos.[1]

DARPA/MIT/AWS Graph Challenge: transmisión de partición de bloques estocásticos[editar]

GraphChallenge fomenta los enfoques comunitarios para desarrollar nuevas soluciones para analizar grafos y datos escasos derivados de las redes sociales, fuentes de sensores y datos científicos para permitir que se descubran las relaciones entre eventos a medida que se desarrollan en el campo. La partición de bloques estocásticos en streaming es uno de los desafíos desde 2017. El agrupamiento espectral ha demostrado un rendimiento sobresaliente en comparación con el algoritmo base original e incluso mejorado[5]​, igualando la calidad de los agrupamientos y siendo varios órdenes de magnitud más rápido.[6][7]

Véase también[editar]

Referencias[editar]

  1. a b Alyson Fox; Geoffrey Sanders; Andrew Knyazev (2018). «Investigation of Spectral Clustering for Signed Graph Matrix Representations». 2018 IEEE High Performance Extreme Computing Conference (HPEC): 1-7. ISBN 978-1-5386-5989-2. doi:10.1109/HPEC.2018.8547575. 
  2. a b Martin Gerlach; Tiago Peixoto; Eduardo Altmann (2018). «A network approach to topic models». Science Advances 4 (7): eaaq1360. Bibcode:2018SciA....4.1360G. PMC 6051742. PMID 30035215. arXiv:1708.01677. doi:10.1126/sciadv.aaq1360. 
  3. a b [1] Archivado el 4 de febrero de 2023 en Wayback Machine. DARPA/MIT/AWS Graph Challenge
  4. [2] Archivado el 4 de febrero de 2023 en Wayback Machine. DARPA/MIT/AWS Graph Challenge Champions
  5. a b A. J. Uppal; J. Choi; T. B. Rolinger; H. Howie Huang (2021). «Faster Stochastic Block Partition Using Aggressive Initial Merging, Compressed Representation, and Parallelism Control». 2021 IEEE High Performance Extreme Computing Conference (HPEC): 1-7. ISBN 978-1-6654-2369-4. doi:10.1109/HPEC49654.2021.9622836. 
  6. a b David Zhuzhunashvili; Andrew Knyazev (2017). «Preconditioned spectral clustering for stochastic block partition streaming graph challenge». 2017 IEEE High Performance Extreme Computing Conference (HPEC). arXiv:1708.07481. doi:10.1109/HPEC.2017.8091045. 
  7. Lisa Durbeck; Peter Athanas (2020). «Incremental Streaming Graph Partitioning». 2020 IEEE High Performance Extreme Computing Conference (HPEC): 1-8. ISBN 978-1-7281-9219-2. doi:10.1109/HPEC43674.2020.9286181.